Cours 3 : Calcul de précision

Paul Géhin

13 mars 2026

Previously in “Cours de sondage”

Résumé du cours 2

Estimateur de la variance de l’estimateur d’Horvitz-Thompson

Nous considérons :

  • une population \(\mathcal{U}\) de taille \(N\)
  • un échantillon \(s\) tiré selon un plan de sondage \(\mathcal{p}\).
    • \(\{\pi_k\}_{k \in \mathcal{U}}\) et \(\{\pi_{kl}\}_{(k,l) \in \mathcal{U}^2}\) désignent (resp) les probabilités d’inclusion d’ordre 1 et d’ordre 2.
  • une variable d’intérêt \(\textbf{y} = (y_1, ..., y_N)\) à valeur réelle (sans perte de généralité).
    • cette variable n’est observable que pour les individus de l’échantillon.

But : estimer le total \(t_\textbf{y}\) de la variable d’intérêt \(\textbf{y}\) sur l’ensemble de la population avec \(\displaystyle t_\textbf{y} = \sum_{k \in \mathcal{U}} \textbf{y}_k\).

  • \(\displaystyle \hat{t}_{y, \text{HT}} = \sum_{k \in S} \frac{y_k}{\pi_k}\) est l’estimateur d’Horvitz-Thompson
    • Il est sans biais si pour tout \(k \in \mathcal{U}, ~ \pi_k > 0\).

Variance de l’estimateur d’Horvitz-Thompson

  • Quid de sa variance ?
  • La variance permet intuitivement de quantifier à quel point un estimateur fluctue autour de sa moyenne.

Variance de l’estimateur d’Horvitz-Thompson d’un total

Soit \(\hat t_{y,\text{HT}}\), l’estimateur d’Horvitz-Thompson du total \(t_y\). \[\mathbb{V}(\hat t_{y,\text{HT}}) = \sum_{k \in \color{red}{\mathcal{U}}} \sum_{l \in \color{red}{\mathcal{U}}} \frac{y_k}{\pi_k} \frac{y_l}{\pi_l} \Delta_{kl}\]

\(\Delta_{kl} = \pi_{kl} - \pi_k \pi_l\) désigne la covariance entre \(I_k\) et \(I_l\).

  • Est-ce que cette formule de variance est exploitable sur un échantillon ? Non.

  • Besoin d’estimer la variance de l’estimateur d’Hovitz-Thompson : comment ?

  • Réutilisation de la logique de l’estimateur d’Hovitz-Thompson : \[\hat{\mathbb{V}}_\text{HT}(\hat t_{y,\text{HT}}) = \sum_{k \in \mathcal{U}} \sum_{k \in \mathcal{U}} \frac{y_k}{\pi_k} \frac{y_l}{\pi_l} \Delta_{kl} \color{red}{\frac{I_{kl}}{\pi_{kl}}} \color{black} = \sum_{k \in S} \sum_{l \in S} \frac{y_k}{\pi_k} \frac{y_l}{\pi_l} {\frac{\Delta_{kl}}{\pi_{kl}}} \]\(I_{kl} = I_k I_l\).

\(\to\) Nous verrons que dans certains cas, il existe des formes plus simples ou plus interprétables de ces formules de variance.

Variance de l’estimateur d’Horvitz-Thompson d’un total - Schéma

Résumé du cours 2

Exemple d’application - Estimation ponctuelle

  • Nous avons tenté d’estimer le coût total en transport sur notre population.

    • \(\displaystyle \theta_2(\{\textbf{y}_k \}_{k \in \mathcal{U}}) = \sum_{k \in \mathcal{U}} \textbf{y}_k\) est biaisé…
  • Supposons que l’échantillon \(s = \{1,5,7,10\}\) ait été tiré en utilisant un plan aléatoire simple sans remise de taille \(n\) = 4.

  • \(\to\) Pour chaque \(k \in \mathcal{U} = \{1, ... 10\}\), \(\pi_k = \frac{4}{10}\).

  • L’estimateur de Horvitz-Thompson donne \(\frac{y_1}{\pi_1} + \frac{y_5}{\pi_5} + \frac{y_7}{\pi_7} + \frac{y_{10}}{\pi_{10}}\).

  • Une estimation associée est \((84 + 30 + 30 + 30) \times \frac{10}{4} = 435 €\).

Exemple d’application - Estimation de la variance

  • Nous avons obtenu l’estimation de 435 € de congés sur l’ensemble de la population.

  • Nous souhaitons une estimation de la variance.

  • Le plan de sondage est un plan aléatoire simple sans remise de taille \(4\) :

    • Les probabilités d’inclusion \(\pi_{kl}\) pour deux individus distincts \(k\) et \(l\) sont telles que \(\pi_{kl} = \frac{3 \times 4}{10 \times 9} = \frac{2}{15}\).
    • La covariance \(\Delta_{kl}\) entre \(I_k\) et \(I_l\)\(k\) et \(l\) sont deux individus distincts vaut donc \(-\frac{4}{150}\)
    • Utilisation de l’estimateur de la variance :
      • 36585 - 25650 = 10 935 € \({}^2\).

Formule de Sen-Yates-Grundy

  • Lorsque le plan de sondage \(p\) est de taille fixe, il est possible de montrer que : \[\mathbb{V}(\hat t_{y,\text{HT}}) = - \frac{1}{2} \sum_{k \in \mathcal{U}} \sum_{l \in \mathcal{U} | k \neq l} \left(\frac{y_k}{\pi_k} - \frac{y_l}{\pi_l} \right)^2 \Delta_{kl} \]
  • Éléments de preuve :
    • Montrer que si \(p\) est de taille fixe \(n\) alors pour tout individu \(l\) de \(\mathcal{U}\) \(\displaystyle \sum_{k \in \mathcal{U}} \underbrace{\Delta_{kl}}_{\pi_{kl} - \pi_k \pi_l} = 0\) et \(\displaystyle \sum_{k \in \mathcal{U}} \pi_{kl} = n \pi_l\)
    • Développer.
  • Cette formule donne une condition suffisante afin d’avoir un estimateur d’Hovitz-Thompson avec une faible variance :
    • Choisir les probabilités d’ordre un linéairement liées à la variable d’intérêt. \(\to\) donne des lignes directrices pour la conception du plan de sondage.
  • Problème : cette formule de la variance se base également sur les observations de la variable d’intérêt sur la population \(\mathcal{U}\).

Estimateur de la variance de Sen-Yates-Grundy

À partir de la formule de Sen-Yates-Grundy, il est possible de construire pour les plans à taille fixe, un estimateur de la variance de l’estimateur de Horvitz-Thompson :

\[\hat{\mathbb{V}}_\text{SYG}(\hat t_{y,\text{HT}}) = - \frac{1}{2} \sum_{k \in \mathcal{S}} \sum_{l \in \mathcal{S} | k \neq l} \left(\frac{y_k}{\pi_k} - \frac{y_l}{\pi_l} \right)^2 \frac{\Delta_{kl}}{\pi_{kl}}\]

  • Cet estimateur est positif si pour tout \((k,l) \in \mathcal{U}^2, k \neq l ~~ \Delta_{kl} \leq 0\) (condition de Sen-Yates-Grundy).
  • Cet estimateur est sans biais si pour tout \((k,l) \in \mathcal{U}^2, ~ \pi_{kl} > 0\).

Remarque :

  • L’estimateur de la variance “à la Horvitz-Thompson” \(\hat{\mathbb{V}}_\text{HT}(\hat t_{y,\text{HT}})\) et l’estimateur de la variance de Sen-Yates-Grundy \(\hat{\mathbb{V}}_{\text{SYG}}(\hat t_{y,\text{HT}})\) ne donnent pas les mêmes résultats en général.

Intervalle de confiance

  • Jusqu’ici, nous avons estimé le total \(t_y\) en utilisant l’estimateur d’Horvitz-Thompson \(\hat t_{y,\text{HT}}\) :

    • Il s’agit d’une estimation ponctuelle.
    • Mais cet estimateur est soumis à de l’incertitude.
  • Autre approche permettant d’apprécier l’incertitude sur l’estimation : intervalle de confiance.

Intervalle de confiance (2)

Intervalle de confiance

Un intervalle de confiance (resp par excès) de niveau \(1 - \alpha\) pour le paramètre \(\theta\) est un intervalle défini par deux variables aléatoires \(\underline{\hat \theta}\) et \(\bar{\hat \theta}\) telles que \[\mathbb{P}(\theta \in [\underline{\hat \theta}, \bar{\hat \theta}]) = 1 - \alpha \text{ (resp } \geq 1 - \alpha)\]

Intervalle de confiance asymptotique

Un intervalle de confiance asymptotique (resp par excès) de niveau \(1 - \alpha\) pour le paramètre \(\theta\) est un intervalle défini par deux suites de variables aléatoires \((\underline{\hat \theta_n})_{n \in \mathbb{N}}\) et \((\bar{\hat \theta_n})_{n \in \mathbb{N}}\) telles que \[\lim_{n \to \infty} \mathbb{P}(\theta \in [\underline{\hat \theta_n}, \bar{\hat \theta_n}]) = 1 - \alpha \text{ (resp } \geq 1 - \alpha)\]

Généralement :

  • les intervalles de confiance non asymptotiques sont utilisables si on connaît la distribution de l’échantillon.
  • les intervalles de confiance asymptotique repose sur la normalité asymptotique de l’estimateur :
    • dans le cadre traditionnel (population infinie, iid) : le théorème central limite.

Théorème central limite

Théorème central limite - cadre hors sondage

Soit \(\{X_1, ..., X_n\}\), \(n\) variables aléatoires iid telles que \(\mathbb{E}(X_1) = \mu\) et \(\mathbb{V}(X_1) < \infty\). Le théorème central limite assure que : \[\frac{1}{\mathbb{V}( \frac{1}{n} \sum_{k = 1}^n X_k)^{\frac{1}{2}}} \left( \frac{1}{n} \sum_{k = 1}^n X_k - \mu \right) = \frac{\sqrt{n}}{\mathbb{V}(X_1)^{\frac{1}{2}}} \left( \frac{1}{n} \sum_{k = 1}^n X_k - \mu \right) \hookrightarrow \mathcal{N}(0, 1)\]\(\hookrightarrow\) désigne la convergence en loi.

  • Utilisation possible pour déterminer un intervalle de confiance asymptotique pour l’espérance
  • \[[\bar{X_n} - \frac{\mathbb{V}(X_1)^{\frac{1}{2}}}{\sqrt{n}} q_{1 - \frac{\alpha}{2}} , \bar{X_n} + \frac{\mathbb{V}(X_1)^{\frac{1}{2}}}{\sqrt{n}} q_{1 - \frac{\alpha}{2}} ]\]\(q_{1 - \frac{\alpha}{2}}\) est le quantile d’ordre \(1-\frac{\alpha}{2}\) de la loi normale centrée réduite, est un intervalle de confiance asymptotique au niveau \(1-\alpha\) pour \(\bar{X}_n\).

Théorème central limite en sondage

  • Est-ce que le théorème central limite est applicable en sondage sur l’estimateur d’Horvitz-Thompson ?

  • Par exemple : \[\frac{1}{\mathbb{V}^{\frac{1}{2}}(\hat t_{y,\text{HT}})}(\hat t_{y,\text{HT}} - t_y) \hookrightarrow \mathcal{N}(0,1) \]

  • Qu’est-ce que \(n \to \infty\) ?
    • Cadré proposé par exemple dans Isaki et Fuller (1982) : \(N \to \infty\) ?
  • Un théorème central limite pour tous les plans de sondage :
    • Hájek (1960) : pour le SRS.
    • Chauvet (2015) : pour les sondages à plusieurs degrés avec un SRS au premier degré.
    • Berger (1998) : pour les plans à forte entropie. …
  • Champ de recherche ouvert : théorie unifiée ? D’autres TCL ?

Théorème central limite en sondage

  • Dans ce cours, on supposera toujours que le théorème central limite tient : \[\frac{1}{\mathbb{V}^{\frac{1}{2}}(\hat t_{y,\text{HT}})}(\hat t_{y,\text{HT}} - t_y) \hookrightarrow \mathcal{N}(0,1) \]
  • Un intervalle de confiance asymptotique au niveau \(1-\alpha\) est donné par : \[ [ \hat t_{y,\text{HT}} - q_{1 - \frac{\alpha}{2}} \color{red}{\mathbb{V}}^{\frac{1}{2}}(\hat t_{y,\text{HT}}), \hat t_{y,\text{HT}} + q_{1 - \frac{\alpha}{2}} \color{red}{\mathbb{V}}^{\frac{1}{2}}(\hat t_{y,\text{HT}}) ] \] avec \(q_{1 - \frac{\alpha}{2}}\), le quantile d’ordre \(1- \frac{\alpha}{2}\) de la loi normale centrée réduite
  • Problème : \(\mathbb{V}(\hat t_{y,\text{HT}})\) pas connu mais … on peut utiliser un estimateur consistant de \(\hat{\mathbb{V}}(\hat t_{y,\text{HT}})\).

Lemme de Slustky

Si \((X_n,Y_n)_{n \in \mathbb{N}}\) tel que \(X_n \to^{\mathbb{P}} c\) (une constante) et \(Y_n \hookrightarrow Y\) alors \((X_n, Y_n) \hookrightarrow (c,Y)\).

\(\to\) Remplacement de \(\mathbb{V}(\hat t_{y,\text{HT}})\) par un estimateur \(\hat{\mathbb{V}}_\text{HT}(\hat t_{y,\text{HT}})\) ou \(\hat{\mathbb{V}}_\text{SYG}(\hat t_{y,\text{HT}})\) (si taille fixe).

Intervalle de confiance en sondage pour le total

Pour proposer un intervalle de confiance (asymptotique) associé au total \(t_y\) d’une variable d’intérêt \(y\), il faut :

  • Calculer une estimation en utilisant un estimateur (l’estimateur de Horvitz-Thompson par exemple).
  • Calculer une estimation de la variance (Horvitz-Thompson, Sen-Yates-Grundy, …) de l’estimateur de Horvitz-Thompson.
  • Calculer le quantile d’ordre \(1- \frac{\alpha}{2}\) de la loi normale centrée réduite.

\[ [ \hat t_{y,\text{HT}} - q_{1 - \frac{\alpha}{2}} \hat{\mathbb{V}}^{\frac{1}{2}}(\hat t_{y,\text{HT}}), \hat t_{y,\text{HT}} + q_{1 - \frac{\alpha}{2}} \hat{\mathbb{V}}^{\frac{1}{2}}(\hat t_{y,\text{HT}}) ] \]

Exemple

  • Nous avons obtenu l’estimation de 435 € de dépenses de transport en commun sur l’ensemble de la population.

  • Nous avons obtenu une estimation de la variance de 10 935 € \({}^2\)

  • Il est possible de construire une réalisation d’un intervalle de confiance asymptotique au niveau 95 % en utilisant ces informations.

\[ [ \hat t_{y,\text{HT}} - q_{1 - \frac{\alpha}{2}} \hat{\mathbb{V}}^{\frac{1}{2}}(\hat t_{y,\text{HT}}), \hat t_{y,\text{HT}} + q_{1 - \frac{\alpha}{2}} \hat{\mathbb{V}}^{\frac{1}{2}}(\hat t_{y,\text{HT}}) ] \]

avec \(\alpha = 0.05 \to q_{1 - \frac{\alpha}{2}} = 1.96\)

  • La réalisation d’un intervalle de confiance asymptotique au niveau 95% est donc :

\[[\underbrace{435- 1.96 \times \sqrt{10 935}}_{\approx 230}, \underbrace{435 + 1.96 \times \sqrt{10 935}}_{\approx 640}]\]

Berger, Yves G. 1998. « Rate of convergence for asymptotic variance of the Horvitz–Thompson estimator ». Journal of Statistical Planning and Inference 74: 149‑68.
Chauvet, Guillaume. 2015. « Coupling methods for multistage sampling ». Annals of Statistics 43: 2484‑2506.
Hájek, Jaroslav. 1960. « Limiting distributions in simple random sampling from a finite population ». Publications of the Mathematical Institute of the Hungarian Academy of Sciences 5: 361‑74.
Isaki, Cary Tsuguo, et Wayne A. Fuller. 1982. « Survey Design under the Regression Superpopulation Model ». Journal of the American Statistical Association 77: 89‑96.